词向量是进行自然语言处理的常用技术, 但是训练词向量需要很多语料库和计算力, 于是有人训练好了很多词向量供我们使用, 下面是一些优质的词向量, 可以直接下载使用。
中文词向量
以下文字由本站站长翻译而来:原文在此
这个项目提供100多个用不同表示(密集和稀疏),上下文特征(单词,ngram,字符等)和语料库训练的中文单词向量(嵌入)。可以轻松获得具有不同属性的预先训练的向量,并将它们用于下游任务。
此外,我们提供了一个中文类比推理数据集** CA8 **和评估工具包,供用户评估其词向量的质量。
引用
请引用论文,如果使用这些嵌入和CA8数据集。
Shen Li, Zhe Zhao, Renfen Hu, Wensi Li, Tao Liu, Xiaoyong Du, Analogical Reasoning on Chinese Morphological and Semantic Relations, accepted by ACL 2018.
1 | @article{shen2018analogical, |
1 | @InProceedings{shen2018analogical, |
格式
预先训练好的向量文件是文本格式。每行包含一个单词和它的向量。每个值由空格分隔。第一行记录元信息:第一个数字表示文件中的字数,第二个数字表示向量大小。
除了密集的单词向量(用SGNS训练)之外,我们还提供稀疏向量(用PPMI训练)。它们与liblinear的格式相同,其中“:”之前的数字表示维度索引,“:”之后的数字表示该值。
预训练的中文单词矢量
基本设置
Window Size | Dynamic Window | Sub-sampling | Low-Frequency Word | Iteration | Negative Sampling* |
5 | Yes | 1e-5 | 10 | 5 | 5 |
各种领域词向量
用不同的表示法,上下文特征和语料库训练的中文单词向量。下面的下载链接都是我的百度网盘, 因为怕资料丢失, 所以统一保存在了我的网盘, 后期可能回不时更新。
Word2vec / Skip-Gram with Negative Sampling (SGNS) | ||||
Corpus | Context Features | |||
Word | Word + Ngram | Word + Character | Word + Character + Ngram | |
Baidu Encyclopedia 百度百科 | 300d | 300d | 300d | 300d |
Wikipedia_zh 中文维基百科 | 300d | 300d | 300d | 300d |
People's Daily News 人民日报 | 300d | 300d | 300d | 300d |
Sogou News 搜狗新闻 | 300d | 300d | 300d | 300d |
Financial News 金融新闻 | 300d | 300d | 300d | 300d |
Zhihu_QA 知乎问答 | 300d | 300d | 300d | 300d |
Weibo 微博 | 300d | 300d | 300d | 300d |
Literature 文学作品 | 300d | 300d | 300d | 300d |
Complete Library in Four Sections 四库全书* | 300d | 300d | NAN | NAN |
Mixed-large 综合 | 300d | 300d | 300d | 300d |
Positive Pointwise Mutual Information (PPMI) | ||||
Corpus | Context Features | |||
Word | Word + Ngram | Word + Character | Word + Character + Ngram | |
Baidu Encyclopedia 百度百科 | 300d | 300d | 300d | 300d |
Wikipedia_zh 中文维基百科 | 300d | 300d | 300d | 300d |
People's Daily News 人民日报 | 300d | 300d | 300d | 300d |
Sogou News 搜狗新闻 | 300d | 300d | 300d | 300d |
Financial News 金融新闻 | 300d | 300d | 300d | 300d |
Zhihu_QA 知乎问答 | 300d | 300d | 300d | 300d |
Weibo 微博 | 300d | 300d | 300d | 300d |
Literature 文学作品 | 300d | 300d | 300d | 300d |
Complete Library in Four Sections 四库全书* | 300d | 300d | NAN | NAN |
Mixed-large 综合 | 300d | 300d | 300d | 300d |
词共现性
我们发布的词向量来自不同的共现统计量。目标和上下文向量在一些相关论文中通常被称为输入和输出向量。
在这一部分中,可以获得超出单词的任意语言单位的向量。例如,字符向量(word-character)。
所有向量均由SGNS在百度百科上进行训练。
Feature | Co-occurrence Type | Target Word Vectors | Context Word Vectors |
Word | Word → Word | 300d | 300d |
Ngram | Word → Ngram (1-2) | 300d | 300d |
Word → Ngram (1-3) | 300d | 300d | |
Ngram (1-2) → Ngram (1-2) | 300d | 300d | |
Character | Word → Character (1) | 300d | 300d |
Word → Character (1-2) | 300d | 300d | |
Word → Character (1-4) | 300d | 300d | |
Radical | Radical | 300d | 300d |
Position | Word → Word (left/right) | 300d | 300d |
Word → Word (distance) | 300d | 300d | |
Global | Word → Text | 300d | 300d |
Syntactic Feature | Word → POS | 300d | 300d |
Word → Dependency | 300d | 300d |
上下文特征
三个上下文特征:** word , ngram 和 character 常见于文献中。大多数单词表示方法主要利用单词共现统计,即使用单词作为上下文特征(单词特征)。受语言建模问题的启发,我们在上下文中引入了ngram特性。 word-word和word-ngram共现统计都用于训练(ngram特征)**。对于中国人来说,汉字(汉字)通常表达强烈的语义。为此,我们考虑使用单词和单词字符共现统计来学习单词向量。字符级ngram的长度范围从1到4 (字符特征)。
除了word,ngram和character之外,还有其他对单词向量的属性具有实质影响的特征。例如,使用整个文本作为上下文特征可以将更多的主题信息引入词向量;使用依赖关系解析作为上下文特征可以为词向量添加语法约束。本项目考虑了17种同现类型。
语料库
我们费了很大劲收集各个领域的语料。所有文本数据都通过删除html和xml标签进行预处理。只保留纯文本,并且[HanLP(v_1.5.3)](https://github.com/hankcs/HanLP)用于分词。详细的语料库信息如下所示:
Corpus | Size | Tokens | Vocabulary Size | Description |
Baidu Encyclopedia 百度百科 | 4.1G | 745M | 5422K | Chinese Encyclopedia data from https://baike.baidu.com/ |
Wikipedia_zh 中文维基百科 | 1.3G | 223M | 2129K | Chinese Wikipedia data from https://dumps.wikimedia.org/ |
People's Daily News 人民日报 | 3.9G | 668M | 1664K | News data from People's Daily(1946-2017) http://data.people.com.cn/ |
Sogou News 搜狗新闻 | 3.7G | 649M | 1226K | News data provided by Sogou labs http://www.sogou.com/labs/ |
Financial News 金融新闻 | 6.2G | 1055M | 2785K | Financial news collected from multiple news websites |
Zhihu_QA 知乎问答 | 2.1G | 384M | 1117K | Chinese QA data from https://www.zhihu.com/ |
Weibo 微博 | 0.73G | 136M | 850K | Chinese microblog data provided by NLPIR Lab http://www.nlpir.org/download/weibo.7z |
Literature 文学作品 | 0.93G | 177M | 702K | 8599 modern Chinese literature works |
Mixed-large 综合 | 22.6G | 4037M | 10653K | We build the large corpus by merging the above corpora. |
Complete Library in Four Sections 四库全书 | 1.5G | 714M | 21.8K | The largest collection of texts in pre-modern China. |
工具包
所有的单词向量由[ngram2vec](https://github.com/zhezhaoa/ngram2vec/)工具箱进行训练。 Ngram2vec工具箱是[word2vec](https://github.com/svn2github/word2vec)和[fasttext](https://github.com/facebookresearch/fastText)工具箱的超集,支持任意上下文特性和模型。
中文推理基准
词向量的质量通常通过推理问题任务来评估。在这个项目中,有两个基准被用于评估。首先是CA翻译,其中大多数类比问题直接从英语基准转换而来。虽然CA翻译已被广泛用于许多中文word embedding论文,但它只包含三个语义问题的问题,涵盖了134个中文单词。相比之下,CA8是专门为中文而设计的。它包含了17813个类比问题,涵盖了全面的形态和语义关系。 CA转换后的CA8及其详细描述在[** testsets **](https://github.com/Embedding/Chinese-Word-Vectors/tree/master/testsets)文件夹中提供。
评估工具包
我们在[evaluation](https://github.com/Embedding/Chinese-Word-Vectors/tree/master/evaluation)文件夹中提供评估工具包。
运行以下代码来评估密集向量。
1 | `$ python ana_eval_dense.py -v <vector.txt> -a CA8/morphological.txt |
运行以下代码来评估稀疏向量。
`$ python ana_eval_sparse.py -v <vector.txt> -a CA8/morphological.txt
$`
> **注意**
> 本文由jupyter notebook转换而来, 您可以在这里下载[notebook](最全中文词向量数据下载-都是训练好的优质向量.ipynb)
> 统计咨询请加QQ 2726725926, 微信 mllncn, SPSS统计咨询是收费的
> 微博上@mlln-cn可以向我免费题问
> 请记住我的网址: mlln.cn 或者 jupyter.cn